期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于动态概率抽样的标签噪声过滤方法
张增辉, 姜高霞, 王文剑
《计算机应用》唯一官方网站    2021, 41 (12): 3485-3491.   DOI: 10.11772/j.issn.1001-9081.2021061026
摘要264)   HTML13)    PDF (1379KB)(125)    收藏

在机器学习问题中,数据质量对系统预测的准确性产生了深远的影响。由于信息获取的难度大,人类的认知主观且有限,导致了专家无法准确标记所有样本。而近年来出现的一些概率抽样方法无法避免样本人为划分不合理且主观性较强的问题。针对这一问题,提出一种基于动态概率抽样(DPS)的标签噪声过滤方法,充分考虑各个数据集样本间的差异性,通过统计各个区间内置信度分布频率,分析各个区间内置信度分布信息熵的走势,确定合理阈值。在UCI经典数据集中选取了14个数据集,将所提方法与随机森林(RF)、HARF、MVF、局部概率抽样(LPS)等方法进行了对比实验。实验结果表明,所提出的方法在标签噪声识别和分类泛化上均展示出了较高的能力。

图表 | 参考文献 | 相关文章 | 多维度评价
2. 基于局部概率抽样的标签噪声过滤方法
张增辉, 姜高霞, 王文剑
计算机应用    2021, 41 (1): 67-73.   DOI: 10.11772/j.issn.1001-9081.2020060970
摘要363)      PDF (1462KB)(708)    收藏
分类学习任务中,在获取数据的过程中会不可避免地产生噪声,特别是标签噪声的存在不仅使得学习模型更复杂,而且容易造成过拟合并导致分类器泛化能力的下降。标签噪声过滤算法虽然在一定程度上可以解决上述问题,但是仍然存在噪声识别能力较差、分类效果不够理想以及过滤效率低等问题。针对这些问题,提出一种基于标签置信度分布的局部概率抽样方法来进行标签噪声过滤。首先利用随机森林分类器对样本的标签进行投票,从而获取每个样本的标签置信度;然后根据标签置信度的大小,将样本划分为易识别样本和难识别样本;最后分别采用不同的过滤策略对样本进行过滤。实验结果表明,在标签噪声存在的情况下,所提方法在大多数案例上能够保持较高的噪声识别能力,并且在分类泛化性能上也具有明显优势。
参考文献 | 相关文章 | 多维度评价
3. CCML2021+224 基于动态概率抽样的标签噪声过滤方法
张增辉 姜高霞 王文剑
  
录用日期: 2021-06-29